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上 节 课 我 们 主要 介绍 了 Radial Basis Function Network。 它 的 原理 就 是 基于 距离 相似 
性 (distance-based similarities) 的 线性 组 合 (linear aggregation) 。 我 们 使 用 k- 
Means clustering 算 法 找 出 具有 代表 性 的 k 个 中 心 点 ， 然 后 再 计算 与 这 些 中 心 点 的 
distance similarity， 最 后 应 用 到 RBF Network 中 去 。 


LinearNetwork Hypothesis 


回顾 一 下 ,我 们 在 机 器 学 习 基石 课程 的 第 一 节 课 就 提 到 过 ， 机 器 学 习 的 目的 就 是 让 机 
器 从 数据 data 中 学 习 到 某 种 能 力 skill。 我 们 之 前 举 过 一 个 典型 的 推荐 系统 的 例子 。 就 
是 说 ,假如 我 们 手 上 有 许多 不 同 用 户 对 不 同 电影 的 排名 rank， 通 过 机 器 学 习 ， 训 | 练 一 
个 模型 ， 能 够 对 用 户 没 有 看 过 的 某 部 电影 进行 排名 预测 。 


data skill | 


e data: how ‘many Users have rated ‘some movies’ 

。 Skill: predict how a user would rate an unrated movie 
一 个 典型 的 电影 推荐 系统 的 例子 是 2006 年 Netflix 举 办 的 一 次 比赛 。 数 据 包 含 了 480189 
个 用 户 和 17770 部 电影 ， 总 共 1 亿 多 个 排名 信息 。 该 推荐 系统 模型 中 ， 我 们 用 


in 三 (有 ) 表 示 第 n 个 用 户 ， 这 是 一 个 抽象 的 特征 ， 常 常 使 用 数字 编号 来 代 蔡 具 体 哪 个 
用 户 。 输 出 方面 ， 我 们 使 用 yw = rnm 表示 第 n 个 用 户 对 第 m 部 电影 的 排名 数值 。 





A Hot Problem 


sa competition held by Netflix in 2006 
» 100,480,507 ratings that 480,189 users gave to 17,770 movies 
es。 10% improvement = 1 million dollar prize 


e data Dn for m-th movie: 
{(Xn = (nN), yn = rnm): User n rated movie m} 
一 abstract feature xn = (n) 





下 面 我 们 来 进一步 看 看 这 些 抽象 的 特征 ，¥;, 二 (nn) 是 用 户 的 ID， 通 常用 数字 表示 。 
例如 1126,5566,6211 等 。 这 些 编号 并 没有 数值 大 小 上 的 意义 ， 只 是 一 种 ID 标 识 而 已 。 
这 类 特征 被 称 为 类 别 特征 (categorical features) 。 常 见 的 categorical features 包 括 : 
IDs，blood type，programming languages 等 等 。 而 许多 机 器 学 习 模 型 中 使 用 的 大 部 
分 都 是 数值 特征 (numerical features) 。 例 如 linear models，NNet 模 型 等 。 但 决策 树 
(decision tree) 是 个 例外 ， 它 可 以 使 用 categorical features。 所 以 说 ， 如 果 要 建立 一 
个 类 似 推 荐 系统 的 机 器 学 习 模型 ， 就 要 把 用 户 ID 这 种 categorical features 转 换 为 
numerical features。 这 种 特征 转换 其 实 就 是 训练 模型 之 前 一 个 编码 (encoding) 的 过 


程 。 


。 categorical features, e.g. 

。 IDs 

。 blood type: A, B, AB, O 

se。 programming languages: C, C++, Java, Python, ... 
。 many ML models operate on numerical features 


e linear models 
。 extended linear models such as NNet 


—except for decision trees 
。 Need: encoding (transform) from categorical to numerical 


一 种 最 简单 的 encoding 方 式 就 是 binary vector encoding。 也 就 是 说 ， 如 果 输 入 样本 有 


N 个 ， 就 构造 一 个 维度 为 N 的 向 量 。 第 n 个 样本 对 应 向 量 上 第 n 个 元 素 为 1， 其 它 元 素 都 
是 0。 下 图 就 是 一 个 binary vector encoding 的 例子 。 


binary vector encoding: 


A=[1000]",B= [0100]", 
AB=[0010]",0=[0001] 


经 过 encoding 之 后 ， 输 入 zn 是 N 维 的 binary vector， 表 示 第 n 个 用 户 。 输 出 yj, 是 M 维 的 
向 量 ， 表 示 该 用 户 对 M 部 电影 的 排名 数值 大 小 。 注 意 ， 用 户 不 一 定 对 所 有 M 部 电影 都 
作 过 评价 ， 未 评价 的 恰恰 是 我 们 要 预测 的 (下 图 中 间 号 ? 表示 未 评价 的 电影 


encoded data D, for m-th movie: 


{xn = BinaryVectorEncoding(n), yn = mm): USser nrated movie m} 
or, joint data D 


{(xn = BinaryVectorEncoding(n),yn = [rn ? ? ma ns ... rau)")} 


总 共有 N 个 用 户 ，M 部 电影 。 对 于 这 样 的 数据 ， 我 们 需要 掌握 每 个 用 户 对 不 同 电影 的 喜 
爱 程度 及 排名 。 这 其 实 就 是 一 个 特征 提取 (feature extraction) 的 过 程 ， 提 取出 每 个 

用 户 喜 爱 的 电影 风格 及 每 部 电影 属于 哪 种 风格 ， 从 而 建立 这 样 的 推荐 系统 模型 。 可 供 
选择 使 用 的 方法 和 模型 很 多 ， 这 里 ， 我 们 使 用 的 是 NNet 模 型 。NNet 模 型 中 的 网 络 结构 
是 N 一 d 一 M 型 ,其 中 N 是 输入 层 样本 个 数 ，d 是 隐藏 层 神经 元 个 数 ，M 是 输出 层 电 
影 个 数 。 该 NNet 为 了 简化 计算 ， 忽 略 了 常数 项 。 当 然 可 以 选择 加 上 常数 项 ， 得 到 较 复 
杂 一 些 的 模型 。 顺 便 提 一 下 ， 这 个 结构 跟 我 们 之 前 介绍 的 autoencoder 非 常 类 似 ， 都 是 
只 有 一 个 隐藏 层 。 


idea: try feature extraction Using N-d-M NNet 
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说 到 这 里 ， 有 一 个 问题 ， 就 是 上 图 NNet 中 隐藏 层 的 tanh 函 数 是 否 一 定 需 要 呢 ? 答案 是 
不 需要 。 因 为 输入 向 量 x 是 经 过 encoding 得 到 的 ， 其 中 大 部 分 元 素 为 0， 只 有 一 个 元 素 
为 1。 那 么 ， 只 有 一 个 元 素 Zn 与 相应 权重 的 乘积 进入 到 隐藏 层 。 由 于 Zn 三 1， 则 相当 
于 只 有 一 个 权重 值 进入 到 tanh 函 数 进行 运算 。 从 效果 上 来 说 ，tanh(x) 与 x 是 无 差别 的 ， 
只 是 单纯 经 过 一 个 函数 的 计算 ， 并 不 影响 最 终 的 结果 ， 修 改 权重 值 即 可 得 到 同样 的 效 
果 。 因 此 ， 我 们 把 隐藏 层 的 tanh 函 数 著 换 成 一 个 线性 函数 y=x， 得 到 下 图 所 示 的 结构 。 
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由 于 中 间 隐 藏 层 的 转换 函数 是 线性 的 ， 我 们 把 这 种 结构 称 为 Linear Network 3 
autoencoder 比 较 相 似 ) 。 看 一 下 上 图 这 个 网 络 结构 ， 输 入 层 到 隐藏 层 的 权重 人 维 
度 是 Nxdf ， 用 向 量 V7 了 表示。 隐藏 层 到 输出 层 的 权重 W. 维度 是 dxM， 用 乱 隆 W 表 
示 。 把 权重 由 和 矩阵 表示 之 后 ，Linear Network 的 hypothesis 可 表示 为 : 


jh(z) = WiVz 


如 果 是 单个 用 户 xx,， 由 于 X 向 量 中 只 有 元 素 xn 为 1， 其 它 均 为 0%， 则 对 应 和 矩 阵 V 只 有 第 
n 列 向 量 是 有 效 的 ， 其 输出 hypothesis 为 : 


h(zn) = WT wn 


。 rename: VT for [ww 人 | and W for [ww 
。hypothesis: h(x) = W7Vx 
。per-user output: h(xn) = WVn, where vn is n-th column of V 


Basic Matrix Factorization 


刚刚 我 们 已 经 介绍 了 linear network 的 模型 和 hypothesis。 其 中 Vx 可 以 看 作 是 对 用 户 x 
的 一 种 特征 转换 再 (z)。 对 于 单 部 电影 ， 其 预测 的 排名 可 表示 为 : 


jnm(zZ) = wh B(z) 


linear network: 
h(x)= W7 Vx 
—— 
(x) 
一 for m-th movie, just linear model hm(x) = wh P(x) 
subject to shared transform 中 


推导 完 linear network 模 型 之 后 ， 对 于 每 组 样本 数据 ( 即 第 n 个 用 户 第 m 部 电影 ) ， 我 
们 希望 预测 的 排名 wv 与 实际 样本 排名 y, 尽 可 能 接近 。 所 有 样本 综合 起 来 ， 我 们 使 
用 squared error measure 的 方式 来 定义 瓦 ， ， 刀 i;; 的 表达 式 如 下 所 示 : 


。 for every Dm, Want rnm = yn ET WiVn 
e Ein over all Dm with squared error measure: 


En({wm}, {vr}) = DD (mwhvn)? 


user n rated movie m 


上 式 中 ， 灰 色 的 部 分 是 常数 ， 并 不 影响 最 小 化 求解 ， 所 以 可 以 忽略 。 接 下 来 ,我们 就 
要 求 出 Bin 最 小 化 时 对 应 的 V 和 W 解 。 


我 们 的 目标 是 让 真实 排名 与 预测 排名 尽 可 能 一 致 ， 即 7 六 wv 二 民 wm。 把 这 
种 近似 关系 写成 矩阵 的 形式 : RR 污 YT 人 凡 。 和 矩阵 R 表 示 所 有 不 同 用 户 不 同 电影 的 排名 
情况 ， 维 度 是 NxM。 这 种 用 和 矩阵 的 方式 进行 处 理 的 方法 叫做 Matrix Factorization。 
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上 面 的 表格 说 明了 我 们 希望 将 实际 排名 情况 R 分 解 成 两 个 矩阵 〈(V 和 W) 的 乘积 形式 。 
V 的 维度 是 dxN 的 ，N 是 用 户 个 数 ，d 可 以 是 影片 类 型 ， 例 如 (喜剧 片 ， 爱 情 片 ， 悬 疑 
片 ， 动 作 片 ，.…) 。 根 据 用 户 喜欢 的 类 型 不 同 ， 赋 予 不 同 的 权重 。W 的 维度 是 qd xM ， 
M 是 电影 数目 ，d 同样 是 影片 类 型 ， 该 部 电影 属于 哪 一 类 型 就 在 那个 类 型 上 占 比 较 大 
的 权重 。 当 然 ，d 维 特征 不 一 定 就 是 影片 类 型 ， 还 可 以 是 其 它 特征 ， 例 如 明显 阵容 、 
年 代 等 等 。 
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Matrix Factorization Model 
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那么 ，Matrix Factorization 的 目标 就 是 最 小 化 in, 冰 数 。 bi, 表达 式 如 下 所 示 : 


mE < 工 (mw 


user n rated movie m 


- |( (mv) | 


m=1 \(Xn,mm)EDm 


Bi 中 包含 了 两 组 待 优化 的 参数 ， 分 别 是 v, 和 wm,。 我 们 可 以 借鉴 上 节 课 中 k-Means 
的 做 法 ， 将 其 中 第 一 个 参数 固定 ， 优 化 第 二 个 参数 ， 然 后 再 固定 第 二 个 参数 ， 优 化 第 
一 个 参数 ， 一 步 一 步 进行 优化 。 


当 w, 固定 的 时 候 ， 只 需要 对 每 部 电影 做 linear regression 即 可 ， 优 化 得 到 每 部 电影 的 d 


当 wn 固定 的 时 候 ， 因 为 V 和 W 结 构 上 是 对 称 的 ， 同 样 只 需要 对 每 个 用 户 做 linear 
regression 即 可 ， 优 化 得 到 每 个 用 户 对 d 维 电 影 特征 的 喜爱 程度 v,,。 


e two sets of variables: 
can consider alternating minimization, remember? :-) 
e。 When vn fixed, minimizing wm 三 minimize Ein within D,, 
一 Simply per-movie (per-Dm) linear regression 
e。 When wm fixed, minimizing vn? 
一 per-Uuser linear regression 
by symmeiry between users/movies 


这 种 算法 叫做 alternating least squares algorithm。 它 的 处 理 思想 与 k-Means 算 法 相 
同 ， 其 算法 流程 图 如 下 所 示 : 


Alternating Least Squares 


@ initialize d dimension vectors {Wm)}, {Vn} 
©@ alternating optimization of Ein: repeatedly 
@ optimize Wi1, W>,..., Ww: 
update wm by m-th-movie linear regression on {(Vn, mm)} 
@ optimize vi. V2,..., VN: 
update vn by n-th-user linear regression on {(Wm, /nm)} 


until converge 


alternating least squares algorithm 有 两 点 需要 注意 。 第 一 是 initialize 问 题 ， 通 常会 随 
机 选取 vi 和 ww,。 第 二 是 converge 问 题 ， 由 于 每 次 迭代 更 新 都 能 减 小 Bi;, ，Bin, 会 趋 
向 于 0， 则 保证 了 算法 的 收敛 性 。 


einitialize: usually just randomly 


。 Converge: 
guaranteed as Ein decreases during alternating minimization 


在 上 面 的 分 析 中 ， 我 们 提 过 Matrix Factorization 与 Linear Autoencoder 的 相似 性 ， 下 图 
列 出 了 二 者 之 间 的 比较 。 








Linear Autoencoder Matrix Factorization 





XW (WX) RVIW 
a motivation: . motivation: 
special d-d-d linear NNet N-d-M linear NNet 
e error measure: e error measure: 


squared on known mm 
solution: local optimal via 
alternating least squares 
usefulness: extract 

hidden user/movie features 


squared on all xn; 

solution: global optimal at 
eigenvectors of X7X 
usefulness: extract 
dimension-reduced features 





J 


Matrix Factorization 与 Linear Autoencoder 有 很 强 的 相似 性 ， 都 可 以 从 原始 资料 汇总 提 
取 有 用 的 特征 。 其 实 ，linear autoencoder 可 以 看 成 是 matrix factorization 的 一 种 特殊 


形式 。 


Stochastic Gradient Descent 


我 们 刚刚 介绍 了 alternating least squares algorithm 来 解决 Matrix Factorization 的 问 
题 。 这 部 分 我 们 将 讨论 使 用 Stochastic Gradient Descent 方 法 来 进行 求解 。 之 前 的 
alternating least squares algorithm 中 ， 我 们 考虑 了 所 有 用 户 、 所 有 电影 。 现 在 使 用 
SGD， 随 机 选取 一 笔 资 料 ， 然 后 只 在 与 这 笔 资 料 有 关 的 error function 上 使 用 梯度 下 降 
算法 。 使 用 SGD 的 好 处 是 每 次 迭代 只 要 处 理 一 笔 资料 ， 效 率 很 高 ， 而 且 程 序 简 单 ， 容 
易 实现 ; 最 后 ， 很 容易 扩展 到 其 它 的 error function 来 实现 。 


En(wnjfwh)sx 5 (= 
Wi 


user n rated movie m 
er(user Nn, movie m, rating mm) 





SGD: randomly pick one example within the > & 
update with gradient to per-example err, remember? :-) 


e。 efficient per iteration 
。 Simple to implement 
e easily extends to other err 


对 于 每 笔 资料 ， 它 的 error function 可 表示 为 : 


err(User n, movie m, rating mmm) = (mm 二 whvn) 2 
上 式 中 的 err 是 squared error function ， 仅 与 第 n 个 用 户 w, ， 第 m 部 电影 wm 有 关 。 其 对 
vn 和 wm 的 偏 微分 结果 为 : 
Von = —2(rnm 一 wh vn )wm 


Vuwm = —2(rnm — whvVn )un 


Vvwi er(User n, movie m,rating mm) = 0 unless n= 1126 
Vweo1 err(user n, movie m,rating mm) = 0 unless m = 6211 


Vvyn err(User n, movie m, rating mm) = 一 2 (mw 一 whvn) Wm 


Vw 


err(USer n, movie m, rating mm) = 一 2 (mm 一 whvn) Vn 

很 明显 ，Yyv, 和 Vw 都 由 两 项 乘积 构成 。 (忽略 常数 因子 2) 。 第 一 项 都 是 

rnm 一 wW4,vn， 即 余数 residual。 我 们 在 之 前 介绍 的 GBDT 算 法 中 也 介绍 过 余数 这 个 
概念 。Yv 的 第 二 项 是 wy,， 而 Ywn, 的 第 二 项 是 vn,。 二 者 在 结构 上 是 对 称 的 。 


计算 完 任意 一 个 样本 点 的 SGD 后 ， 就 可 以 构建 Matrix Factorization 的 算法 流程 。SGD 
for Matrix Factorization 的 算法 流程 如 下 所 示 : 


SGD for Matrix Factorization 


initialize d dimension vectors {wm},{fvn} randomly 
加 二 人 


@ randomly pick (n, m) within all known mm 
@ calculate residual fnm = (mm — WHVn) 
@ SGD-update: 


pi 《4 一 Woc 十 7 7Pmwol 
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在 实际 应 用 中 ， 由 于 SGD 算 法 简单 高 效 ，Matrix Factorization 大 多 采用 这 种 算法 。 


介绍 完 SGD for Matrix Factorization 之 后 ， 我 们 来 看 一 个 实际 的 应 用 例子 。 问 题 大 致 
是 这 样 的 : 根据 现在 有 的 样本 资料 ， 预 测 未 来 的 趋势 和 结果 。 显 然 ， 这 是 一 个 与 时 间 
先后 有 关 的 预测 模型 。 比 如 说 一 个 用 户 三 年 前 喜欢 的 电影 可 能 现在 就 不 喜欢 了 。 所 以 
在 使 用 SGD 选 取样 本 点 的 时 候 有 一 个 技巧 ， 就 是 最 后 T 次 迭代 ， 尽 量 选择 时 间 上 靠 后 
的 样本 放 入 到 SGD 算 法 中 。 这 样 最 后 的 模型 受 这 些 时 间 上 靠 后 的 样本 点 影响 比较 大 ， 
也 相对 来 说 比较 准确 ， 对 未 来 的 预测 会 比较 准 。 





KDDCup 2011 Track 1: World Champion Solution by NTU 


。 Specialty of data (application need): 
per-user training ratings earlier than test ratings in time 
。 training/test mismatch: typical sampling bias, remember? :-) 





。 Want: emphasize latter examples 


。 last 7 iterations of SGD: only those T’ examples considered 
—learned {Wm}, {Vn} favoring those 


。 our idea: time-deterministic XGD that visits latter examples last 
—Cconsistent improvements of test performance 


所 以 ， 在 实际 应 用 中 ， 我 们 除了 使 用 常规 的 机 器 学 习 算 法 外 ， 还 需要 根据 样本 数据 和 
问题 的 实际 情况 来 修改 我 们 的 算法 ， 让 模型 更 加 切合 实际 ， 更 加 准确 。 我 们 要 学 会 灵 
活 运用 各 种 机 器 学 习 算 法 ， 而 不 能 只 是 照搬 。 


Summary of Extraction Models 


从 第 12 节 课 开 始 到 现在 ， 我 们 总 共用 了 四 节 课 的 时 间 来 介绍 Extraction Models。 虽 然 
我 们 没有 给 出 Extraction Models 明 确 的 定义 ， 但 是 它 主 要 的 功能 就 是 特征 提取 和 特征 
转换 ， 将 原始 数据 更 好 地 用 隐藏 层 的 一 些 节点 表征 出 来 ， 最 后 使 用 线性 模型 将 所 有 节 
点 aggregation。 这 种 方法 使 我 们 能 够 更 清晰 地 抓 住 数 据 的 本 质 ， 从 而 建立 最 佳 的 机 器 


学 习 模 型 。 


下 图 所 示 的 就 是 我 们 介绍 过 的 所 有 Extraction Models， 除 了 这 四 节 课 讲 的 内 容 之 外 ， 
还 包括 之 前 介绍 的 Adaptive/Gradient Boosting 模 型 。 因 为 之 前 笔记 中 都 详细 介绍 过 ， 
这 里 就 不 再 一 一 总 结 了 。 
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movie features wm 
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k Nearest Neighbor 
Xn-neighbor RBF; 
weights yn 


除了 各 种 Extraction Models 之 外 ， 我 们 这 四 节 课 还 介绍 了 不 同 的 Extraction 
Techniques。 下 图 所 示 的 是 对 应 于 不 同 的 Extraction Models 的 Extraction 
Techniques。 
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Deep Learning 
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k-means clustering 


k Nearest Neighbor 
lazy learning :-) 


最 后 ， 总 结 一 下 这 些 Extraction Models 有 什么 样 的 优点 和 缺点 。 从 优点 上 来 说 : 


。 easy: 机 器 自己 完成 特征 提取 ,减少 人 类 工作 量 
。 powerful: 能 够 处 理 非常 复杂 的 问题 和 特征 提取 
另 一 方面 ， 从 缺点 上 来 说 : 


。 hard: 通常 遇 到 non-convex 的 优化 问题 ， 求 解 较 困难 ， 容 易 得 到 局 部 最 优 解 而 
非 全 局 最 优 解 
。 overfitting: 模型 复杂 ， 容 易 造 成 过 拟 合 ， 需 要 进行 正则 化 处 理 


autoencoder 






所 以 说 ，Extraction Models 是 一 个 非常 强大 的 机 器 学 习 工 具 ， 但 是 使 用 的 时 候 也 要 小 
心 处 理 各 种 可 能 存在 的 问题 。 
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be careful when applying extraction models | 
总 结 


本 节 课 主要 介绍 了 Matrix Factorization。 从 电影 推荐 系统 模型 出 发 ， 首 先 ， 我 们 介绍 
了 Linear Network。 它 从 用 户 ID 编码 后 的 向 量 中 提取 出 有 用 的 特征 ， 这 是 典型 的 
feature extraction。 然 后 ， 我 们 介绍 了 基本 的 Matrix Factorization 算 法 ， 即 alternating 
least squares， 不 断 地 在 用 户 和 电影 之 间 交 互 地 做 linear regression 进 行 优化 。 为 了 简 
化 计算 ， 提 高 运算 速度 ， 也 可 以 使 用 SGD 来 实现 。 事 实证 明 ，SGD 更 加 高 效 和 简单 。 
同时 ， 我 们 可 以 根据 具体 的 问题 和 需求 ， 对 固有 算法 进行 一 些 简 单 的 调整 ， 来 获得 更 
好 的 效果 。 最 后 ， 我 们 对 已 经 介绍 的 所 有 Extraction Models 做 个 简单 的 总 结 。 
Extraction Models 在 实际 应 用 中 是 个 非常 强大 的 工具 ， 但 是 也 要 避免 出 现 过 拟 合 等 问 


题 。 
注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 


